#AIME 24

1年前

xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力，以及一个Grok-mini的小模型在 LMArena 上的 ELO 评分达到 1400，排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程（LiveCodeBench）—— 57% [推理后 80%] 此外，在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩，击败了 o3-mini-high。

#XAI #大型语言模型 #Grok 3 #Grok-mini #LMArena #ELO评分 #推理能力 #AIME 24 #GPQA #编程 #LiveCodeBench #数学竞赛 #AIME 2025